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fi 要: 随 着 道路 场景 理解 技术 的 快速 发 展 ， 自 主 驾驶 领域 取得 了 长 足 的 进步 。 在 相关 任务 中 ， 包 括 道路 分 割 、 分 类 
和 和 车辆 检测 的 实时 性 和 准确 性 是 安全 性 的 一 个 关键 问题 。 为 此 ， on 
差 学 习 的 方法 。 一 方面 ， 编 码 器 网 络 结构 使 用 不 同 层次 的 残 差 网 络 来 提取 高 维 中 的 抽象 特征 ， 这 些 特征 在 接 下 来 的 三 
个 任务 中 共享 使 用 ; 另 一 方面 ， 解 码 器 网 络 结构 采用 一 种 子 任务 的 并 行 计算 机 制 ， 即 道路 分 割 、 车 辆 检测 和 道路 分 类 
任务 同时 执行 。 此 外 ， 全 卷 积 神经 网 络 用 于 对 提取 的 图 像 特 征 进行 上 采样 以 解决 道路 分 割 问题 。 最 终 ， 实 验 结果 表明 
在 保证 高 精度 的 前 提 下 处 理 帧 率 可 达到 15 fps 以 上 。 
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Abstract: It is making great progress in the autonomous driving field with the rapid development of road scene understanding 


a techniques. The safety is a concerning issue with respect to the real-time and accurate performance in the related tasks which 
contain the road segmentation, road classification and vehicle detection. To this end, this paper proposed an approach based on 
deep residual learning with an encoder-decoder network structure. On the one hand, the encoder network structure 
useddifferent layers of residual networks to extract the Abstract: features in the high dimension, which shared in the next 
three tasks. On the other hand, the decoder network structure adopted a mechanism of parallel computing for sub-tasks, i. e. , 
the road segmentation, vehicle detection and road classification tasks were executed simultaneously. Additionally, it used the 
fully convolutional networks to upsample the extracted features to specifically solve the problem of road segmentation. At last, 
the experimental results show that the processing rate can effectively reach more than 15 fps with the high accuracy 
guaranteed. 
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0 zl 该 领域 的 主流 方法 ， 它 已 经 广泛 应 用 于 道路 分 割 、 分 类 和 车 辆 

检测 任务 中 ,以 增强 自动 驾驶 车 辆 对 于 各 驶 场景 的 理解 能 力 (图 

随 着 人 工 智 能 技术 的 快速 发 展 ， 自 动 驾 驶 领域 引起 人 们 越 ” 1) 。 因 此 ， 如何 更 加 快速 准确 地 进行 道路 场景 理解 在 自动 驾驶 

来 越 多 的 关注 ， 因 其 在 日 常生 活 中 改变 人 们 的 出 行 方式 。 基 于  ” 领域 具有 十 分 重要 的 研究 意义 。 目 前 针对 以 上 提 及 的 三 类 道路 
对 人 身 安全 的 考虑 ， 自 动 驾 驶 技术 需要 高 稳定 性 、 准 确 性 和 及 他， 典型 的 解决 方法 如 下 : 

时 处 理 各 种 复杂 的 道路 场景 的 能 力 。 目 前 ， 深 度 学 习 技术 趾 是 道路 分 割 任务 。 道 路 分 割 任务 作为 语义 分 割 任务 
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自动 驾驶 场景 当中 的 任务 。Long 等 人 中 提出 


使 用 深度 神 


经 网 络 结构 解决 道路 分 割 问题， 以 全 卷 积 神经 网 络 首次 实现 了 
端 到 端的 语义 分 割 任务 , 随后 结合 全 卷 积 神经 网 络 结构 。 Paszke 


等 人 中 提出 了 一 种 编码 器 一 解码 器 网 络 模型 ， 利 ) 


神经 网 络 进 


行 图 像 特征 提取 ， 以 提高 算法 泛 化 能 力 ， 提 高 了 网 络 的 运行 速 


度 和 分 割 任务 的 时 效 性 。 
iiy 


任务 , 其 中 SegNet!5!, Multin 


图 1 自动 驾驶 中 的 道路 场景 理解 示意 图 
在 众多 典型 分 割 方法 中 , 常 采用 VGG 网 络 外 进行 特征 提取 


etig 网 络 即 采 


ia? 


的 运行 速度 和 准 
b) 车 辆 


确 率 。 


检测 任务 .Ren SAE h SEL 


该 网 络 结构 进行 图 
抽象 特征 提取 任务 ， 以 完成 道路 分 割 任务 ， 达 到 了 


改进 
使 用 


传统 方法 中 采用 滑动 窗 


X tah 


E 荐 网 络 进行 多 个 检测 物体 候选 框 
不 同 的 神经 网 络 模型 进行 训练 提高 置信 度 ， 最 终 以 最 大 


为 检测 的 最 终结 果 。 另 外 , Redmon 等 人 外 提出 的 改革 区 域 推荐 


口 所 带 来 的 大 规模 计算 问题 ， 
的 生成 ， 接 着 通过 


区 域 推 荐 的 方式 ， 


首先 


信和 度 


式 目标 检测 框架 ， 将 全 图 划分 为 SXS 的 格子 , 采用 一 次 性 预测 


所 有 格子 中 所 含 
c) 道路 分 类 任务 。 


目标 的 候选 框 ,做 到 了 端 到 端的 实 
自 Krizhevsky 等 人 中 提出 了 AlexNet 网 


时 目标 检测 。 


络 结构 ， 将 神经 网 络 应 用 到 分 类 任务 取得 了 突破 性 进展 后 ， 深 
度 神 经 网 络 迅 速 发 展 。 在 ILSVRC 挑战 赛 中 ， 涌现 了 许多 网 络 


结构 复杂 层次 丰富 的 网 络 结构 ， 包 


结构 。 而 在 2015 年 ， 
出 的 深度 残 差 网 络 ， 首 次 提 昌 


[I VGG、GoogleNetLlg 等 网 络 
He 等 人 0 在 原始 网 络 结构 的 基础 上 提 


8 残 差 概 念 ， 采 用 块 结构 管理 


TE 


层 数 ， 针 对 网 络 层 数 过 高 而 产生 的 网 络 过 拟 合 问题 有 了 极 大 的 


改善 ， 并 且 考 虑 了 


分 类 任务 的 影响 ， 极 大 程度 地 提高 了 物 


此 外 ， 


体 分 类 的 准确 率 。 


针对 神经 网 络 当中 至 关 重 要 的 特征 提取 环节 ， 


用 结构 简单 整齐 的 VGG 网 络 结构 进行 图 


务 。 然 而 VGG 网 络 结构 存在 一 些 不 足 ， 因 其 


数 导致 运行 速度 降低 ,不 能 达 


于 卷 积 下 采样 中 丢弃 的 图 像 低 维特 征 对 于 


常 采 


像 高 维特 征 的 提取 任 
网 络 的 大 规模 参 


到 自 


动 轨 驶 中 


的 实时 的 应 用 认 


效果 。 


针对 上 述 问题 ， 本 文中 采用 了 一 种 典型 的 编码 器 一 解码 器 


的 网 络 进行 
码 器 结构 采 
差 网 络 引 入 


高 维度 的 特征 融合 ， 


用 深度 残 差 网 络 


自动 驾驶 中 的 道路 场景 理解 


Shortcut 连接 结构 ， 使 图 像 
在 提高 深度 的 同时 大 大 提高 了 |; 


王 务 的 解决 。 首 先 ， 编 


(ResNet) 提取 图 像 特 征 ， 深 度 残 


ree 


解码 器 结构 利用 提取 到 的 特 


= 


F 结 合 不 同 的 子 任务 


E 度 的 特征 更 好 的 和 
EMIS, m 
司 时 完成 道路 


eH 


Yo mE 


驾驶 技术 的 稳定 性 、 准 确 性 和 时 效 性 。 
1 ”编码 器 一 解码 器 网 络 结构 


行 实验 和 训练 ， 通 过 对 比 不 同 网 络 层 数 以 及 不 同 的 网 络 结构 
运行 速度 提高 至 15 fps 以 上 ， 极 大 地 提高 了 图 像 处 理 
行 速度 ， 改 善 了 汽车 对 道路 环境 的 感知 能 力 ， 进 而 保证 了 自 


的 


编码 器 一 解码 器 网 络 结构 可 以 充分 


也 利用 图 像 的 深层 次 以 


Bik 


awd 


FEBS 。 本 文中 编码 器 部 分 即 为 通过 将 图 


结构 的 神经 网 络 进行 图 像 的 特征 


层 的 显著 特征 ， 通 过 结合 深浅 层次 的 特征 ， 以 提高 任务 的 


像 输入 含有 复杂 卷 积 


提取 ， 以 提取 图 像 深层 次 的 抽 


象 特征 03， 该 部 分 提取 的 图 像 特 


解码 器 部 分 则 是 通过 连接 相应 的 特定 任务 进行 任务 处 理 。 


E 可 以 共享 给 多 个 子 任务 ; 而 
本 文 
【 体 层次 输出 以 


的 网 络 结构 以 及 编码 器 和 解码 器 的 重要 层次 的 


及 参数 设 
检测 和 道路 分 类 任务 。 


如 图 2 所 示 ， 较 好 地 完成 了 道路 分 割 任务 以 及 车 辆 


道路 分 类 


1x1 卷 积 层 
39x12x300 


J EERE 


预测 结果 


140400x2 


1248x384x2 


编码 器 


道路 分 害 


输入 图 像 REE ,编码 器 特征 [ER 
六 gl 


全 卷 积 网 络 


预测 结果 


1248x384x3 39x12x51 


3 个 上 采样 层 


1248x384x2 


车 辆 检测 


39x12x300 


预测 结果 
1248x384x2 


| 


重 缩放 层 
39x12x1524 


2 ”基于 深度 残 差 学 习 的 特征 提取 


图 2 道路 场景 理解 网 络 结构 示意 图 


基于 深度 卷 积 神经 网 络 可 以 从 大 规模 的 训练 数据 中 获得 复 
杂 的 更 深 维度 的 图 像 特 征 的 强大 优势 。 本 文采 用 


COCO 2015 挑战 赛 中 取得 冠军 的 深度 残 差 网 络 结构 。 
入 残 差 学 习 模 块 Shortcut 连接 模 
块 ， 在 原始 卷 积 的 基础 上 ， 通 过 在 层 与 层 之 间 的 输入 和 输出 之 


往 的 神经 网 络 结构 ， 该 网 络 引 


在 ILSVRC& 


区 别 于 以 


前 引入 一 个 线性 连接 ， 这 样 不 仅 可 以 有 效 地 避免 因 层 数 过 多 而 
引发 的 过 拟 合 问 题 ， 同 时 可 以 更 好 地 利用 低 维 度 的 图 像 特征 ， 
有 效 地 提高 了 准确 率 ， 如 图 3 所 示 。 

除 此 以 外 ， 采 用 3x3 的 标准 卷 积 核 ， 使 用 ReLu 激活 函数 
进行 激活 ， 其 中 包含 典型 的 卷 积 以 及 最 大 池 化 操作 。 其 模型 包 


50, 101 


层 ， 最 大 多 达 152 B. LK YGG 


减少 了 网 络 模型 参数 ， 并 且 加 入 了 残 差分 支 ， 


管理 网 络 层 数 。 除 此 以 外 ， 该 网 络 


网 络 结构 而 言 ， 
使 用 块 结 


多 进行 


有 强大 的 迁移 能 力 可 以 很 


好 地 完成 包括 道路 分 类 、 和 车辆 检测 以 及 道路 分 割 等 多 种 任务 ， 


且 可 以 根据 不 同 任务 以 及 训练 数据 量 的 大 小 采用 不 同 的 网 络 


的 详细 


的 卷 积 


特征 提取 任务 。 表 1 中 给 出 了 本 实验 中 所 采 / 
层 的 详细 参数 配置 情况 。 因 参数 众多 ， 本 实验 均 


层 数 的 网 络 结构 。 因 此 ， 本 文采 用 预 训练 的 残 差 网 络 进行 图 像 


的 不 同 网 络 结构 
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录用 稿 R 锐 ， 等 : 基于 深度 残 差 学 习 的 自动 驾驶 道路 场景 理解 
采用 在 预 训练 模型 的 基础 上 进行 调 优 的 做 法 进行 网 络 参 数 的 微 的 方法 ， 充 分 利用 深度 残 差 网 络 训 练 所 得 的 高 维度 特征 。 类 似 
调 ， 以 优化 模型 对 特定 数据 集 的 适应 能 力 。 于 分 割 任务 ， 首 先 需 要 将 编码 器 特征 通过 一 个 1x1 的 卷 积 层 来 
调整 网 络 维度 ， 紧 接着 通过 一 个 瓶颈 层 ， 该 瓶颈 层 由 多 个 1x1 
的 卷 积 组 成 ， 将 输出 调整 为 6 通道 。 其 中 前 两 通道 表示 该 检测 
物体 语义 含义 ， 数 值 表示 其 在 边界 框 中 的 置信 度 ， 后 四 个 通道 
表示 其 边界 框 的 坐标 和 尺寸 。 这 样 就 得 到 了 一 个 粗略 的 估计 结 
) 识别 X 果 。 然 而 这 种 预测 是 不 准确 的 ， 因 此 本 文 又 引入 了 重 缩放 层 ， 
该 层 通过 利用 除了 最 大 值 抑 制 被 选 出 的 边界 框 以 外 的 图 像 其 他 
区 域 的 高 维特 征 和 隐 含 特征 ， 修 正 原始 预测 结果 。 经 过 感 兴趣 
FOOD+X OD 区 域 池 化 的 方式 ， 最 终 通过 1x1 卷 积 调整 维度 ， 得 到 最 终 的 检 
J 
WAR. 
33 ”基于 全 连接 结构 的 道路 分 类 
图 3 Shortcut 连接 网 络 结构 示意 图 本 文 针 对 道路 分 类 问题 ， 采 用 典型 的 神经 网 络 结构 中 的 全 
表 1 神经 网 络 参 数 设置 连接 层 结构 。 首 先 将 经 过 残 差 网 络 训练 的 特征 经 过 1xl 的 卷 积 
VGG ResNet_50 ResNet_101 ResNet_152 调整 图 像 维 度 ， 利 用 多 分 类 器 ， 使 用 softmax 激活 函数 的 全 连 
Conv [3x3,64] 接 层 结构 ， 使 用 one-hot 编码 方式 根据 最 终 比 例 分 数 得 到 最 终 
[7x7,64] [7x7,64] [7x7,64] 
1_x [3x3,64] 的 预测 分 类 的 结果 。 
1x 1,64 1x 1,64 4 实验 结果 与 分 析 
3x 3,64 |x3 3x 3,64 |x3 
1x 1,256 1x 1,256 


为 了 评估 基于 深度 残 差 网 络 的 自动 驾驶 道路 场景 理解 算法 
awe ee a 的 性 能 ， 本 文 进行 了 两 组 实验 。 第 一 组 实验 主要 验证 本 算法 自 
3x 3,128 |x4 3x 3,128 |x4 3x 3,128 |x8 身 的 通用 性 和 解决 实际 问题 的 必要 性 ; 在 第 二 组 实验 中 ， 将 本 
1x1,512 1x1,512 tx1512 文 算法 与 同样 解决 道路 分 割 的 ENet!3], FCNDI]、 SPLO5 以 及 进 


行车 辆 检测 的 KITTI 排行 榜 中 的 算法 进行 了 性 能 的 对 比 。 
[3x3,512] F eer 人 T 行车 辆 检测 的 排行 榜 中 的 算法 进行 了 性 能 的 对 比 
x6 x 23 x 36 | ; 


[3x3,256] 


Conv 
[3x3,256] 
3 


Conv [3x3,128] Pores 
x 3,64 | x3 
2_x [3x3,128] | 11.256 


x 
[3x3,256] 


onv 
g pS 512] | 3x 3,256 3 x 3,256 3 x 3,256 


一 1x 1,1024 1x 1,1024 1x 1,1024 
”03x3.512] LEX x10 oe 


[3x3,512] 
Conv 1x 1,512 1x 1,512 1x 1,512 
[3x3,512] an an an 
5_x x x x 
[3x3,512] 1x 1,2048 1x 1,2048 1x 1,2048 
3 ”基于 自动 驾驶 的 道路 场景 理解 
3.1 基于 全 卷 积 神经 网 络 的 道路 分 割 


全 卷 积 网 络 结构 作为 语义 分 割 领 域 的 关键 性 进展 工作 ， 首 / 7 
次 实现 了 图 像 端 到 端的 语义 分 割 任 务 。 其 提出 了 与 卷 积 操作 逆 图 4 KITTI Road 数据 集 原 始 图 
向 的 运算 思路 ， 在 特征 提取 进行 卷 积 下 采样 丢弃 了 图 像 的 低 维 本 文 实验 主要 采用 自动 芍 驶 领域 数据 内 容 丰 富 的 KITTI 数 
度 的 多 种 特征 的 劣势 的 前 提 下 ， 将 经 过 残 差 网 络 训练 的 特征 经 ” 据 集 (39。 其 中 ， 针 对 道路 分 割 和 分 类 方法 使 用 KITTI Road 数 


ar ant y 


过 1xl ERE REEE WE EME BAERE HRUE, AARE 289 张 训 练 数据 和 290 张 测试 
操作 ， 避 免 了 由 于 使 用 像素 块 而 带 来 的 重复 存储 和 计算 卷 积 的 数据。 图 4 中 展示 了 KITTIRoad 数据 集中 的 原始 数据 图 像 , 主 
问题 ， 其 采用 的 方法 正 与 卷 积 操作 相反 ， 采 用 反 卷 积 的 方式 来 。“ 要 包含 单车 道 线 、 多 车 道 线 以 及 无 车 道 线 三 种 类 型 的 道路 图 像 。 
完成 上 采样 操作 。 引 入 连接 跳跃 层 ， 将 低 维度 特征 与 高 维度 特 ”其 中 第 一 行为 单车 道 线 数据 ， 第 二 行为 多 车 道 线 数据 ， 第 三 行 
征 有 机 的 进行 结合 。 另 外 通过 与 条 件 随 机 场 结合 引入 膨胀 卷 积 ”为 无 车 道 线 数据 ， 该 数据 集 共 包含 以 上 三 种 类 型 的 数据 。 针 对 


ml 


结构 9， 可 以 在 不 减少 维度 的 前 提 下 增 大 感受 野 的 范围 ， 得 到 ”车 辆 检测 任务 采用 KITTI Object 数据 集 进行 训练 评估 , 检测 物 
更 加 准确 的 分 割 结果 。 体 被 分 为 容易 、 中 等 和 困难 三 个 等 级 。 分 割 任务 使 用 最 大 F1 
3.2 ”基于 推荐 的 车 辆 检测 值 09 和 平均 准确 率 作 为 评价 指标 进行 评估 ， 而 检测 任务 以 检测 

车 辆 检测 任务 主要 借鉴 了 基于 推荐 的 方法 ， 主 要 采用 得 益 ”这 三 类 物体 的 平均 准确 率 为 评价 标准 ， 分 类 任务 采用 平均 准确 


《 趣 区 域 池 化 率 进 行 评估 。 本 实验 的 机 器 配置 见 表 2。 


于 YOLO(SI 等 成 功 模型 的 FastBox 方式 ， 使 用 感 》 
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RA 
K2 实验 环境 配置 
操作 系统 Ubuntu 
CPU 32 Intel(R) Xeon(R) CPU E5-2630 v3 @ 2.40GHz 
GPU NVIDIA GeForce TitanX 
RAM 64GB 
语言 环境 Python 
4.1 神经 网 络 参 数 设 置 
4.1.1 损失 函数 
主要 包含 道路 分 割 、 分 类 以 及 车 辆 检测 任务 的 损失 函数 。 


因 道路 分 割 和 分 类 任务 采用 同 种 损失 函 


例 ,分割 任务 采 / 


Losssep (P+ g) = —= Lic: Peecqi(c) log pic) 
其 中 : p 是 预测 值 ，g 为 实际 标定 值 ; 


最 小 批 次 中 成 员 。 


针对 车 辆 检测 的 损失 
坐标 Ll 损失 加 和 组 成 ， 定 义 如 下 : 


—=Lierde/(|xp, — Tgl + Fee- 
+ lAp, = 


Lossppox(p: 


[p = Wal 


qg)= 


c 为 所 属 类 别 集合 ; 


数 ， 这 里 以 分 割 任务 为 


TENREIRA, 其 定义 如 式 〈1) 所 示 。 


(1) 


hg, D 


PR RR H BB ra BES E XAA FE HS 


Yal = (2) 


其 中 : p 是 预测 值 ，q 为 实际 标定 值 ; I 为 最 小 批 当 中 的 成 员 。 


边界 框 主要 包含 四 个 参数 、 边 界 框 的 中 心 


wll ai ER. 
4.1.2 初始 化 


编码 器 阶段 采用 预 
络 权 重 进行 初始 化 。 车 而 
初始 化 权重 ， 分 


点 坐标 (fs 网 以 及 宽度 


先 在 ImageNet 上 训练 过 的 深度 残 差 网 
而 检测 解码 器 权重 采用 随机 初始 化 方式 
割 解 码 器 权重 采用 残 差 网 络 权 习 


进行 初始 化 ， 


其 中 包含 的 跳跃 连接 采用 随机 初始 化 的 方式 进行 初始 化 。 


4.1.3 优化 器 和 正 


le-5 进行 训 
用 Se-4。 
4.2 ”本文 提出 方 


则 化 


本 文中 神经 网 络 训练 采 ) 


法 的 性 能 


评估 


为 了 探究 使 | 


深度 残 差 网 络 对 于 


务 中 对 于 性 能 的 影响 ， 


构 对 道路 分 割 、 


EAR 


AS SCTE E — Bg 
j 检 测 以 及 道路 分 类 任 


] Adam RAE A, 
练 , 随机 失 活 百 分 比 采 用 0.5， 所 有 层次 权重 衰减 采 


自动 驾驶 道路 场景 型 


道路 分 割 任务 采 / 


Eq 


检测 
分 类 平 ] 


ATE 


任务 以 其 中 等 难度 的 物体 检测 
ME CAP) 作为 分 类 问题 的 记 


从 表 3 中 可 以 看 到 分 别 采用 VGG 网 


络 进行 特征 提取 任务 的 结果 。 针 对 道路 分 割 伯 


VGG 网 络 结构 而 


高 了 2.15%. 


言 , 使 / 


深度 残 差 网 络 i 


以 学 习 率 为 


HRE 


昌 集 上 对 采用 不 同 网 络 结 
务 进 和 


了 了 实验 ， 针 对 


最 大 Fl 值 (MaxF1) 作为 对 比 指标 ， 对 于 车 
平均 准确 率 进 行 比 较 ， 而 
估 标 准 
络 结构 和 深度 残 差 网 
E 务 ， 相 较 于 采用 


行 特征 提取 的 分 割 的 


， 见 表 3。 


有 了 小 


实验 


准确 率 提高 到 了 6.5%, 对 于 车 辆 检测 任务 ,其 平均 准 
另外 ， 对 于 传统 的 分 类 任务 而 言 ， 
结果 进一步 证 明了 


对 于 自 


的 提高 。 
路 场景 理解 任务 


确 率 也 提 
平均 准确 率 也 
动 驾 驶 中 的 道 


而 言 ， 深 度 残 差 网 络 相 较 于 VGG 网 络 有 利于 


任务 准 


确 率 的 提高 


FJ o 


表 3 不 同 网 络 结构 进行 道路 场景 理解 任 


VGG 


道路 分 割 
车 辆 检测 
道路 分 类 


95.13% 
84.39% 
94.38% 


86.54% 
95.43% 


表 4 不 同 网 络 层 数 进行 道路 分 割 任 


务 的 对 比 


帧 率 (fps) ” 耗 时 (msec) 


MaxF1(%) 


AP(%) 


VGG 
ResNet_50 


6.59 

15.11 
9.72 
7.1 


151.74 
66.19 

102.86 
140.85 


ResNet_101 
ResNet_152 


95.13 
96.05 
95.88 
95.59 


92.32 
92.15 
92.17 
92.25 


对 于 道路 分 割 任 
络 并 采用 不 同 层 数 的 
验 结果 将 运行 帧 率 提高 至 


构 进行 特征 提 


络 结构 在 分 割 各 


网 


务 ， 从 表 4 中 可 以 看 出 ， 使 
E 务 中 有 明显 的 提升 。 
| 了 15.11 fps， 这 与 使 用 VGG 网 络 
取 任 务 而 言 提 高 了 8.52 fps。 另 外 观察 使 用 不 同 
数 的 深度 残 差 网 络 ， 并 未 达到 层 数 越 深 结果 越 优 的 预测 结果 ， 


笔者 猜测 这 是 由 于 KITTI 数据 集 当 中 道路 的 数据 集 数量 有 限 ， 


对 于 越 大 
高 其 过 拟 合 的 可 


导数 的 网 络 结构 而 言 ， 
针对 


能 性 。 


REAA 
准确 率 的 评估 指标 最 大 


平均 准确 率 而 言 


， 深 度 残 差 网 络 也 在 准确 性 


数据 量 的 减 小 ， 


但 提升 效果 比 明 显 ， 这 与 网 


络 层 数 的 不 断 加 深 所 人 


型 参数 大 幅度 提高 有 一 定 的 关联 。 
及 不 同 网 络 层 数 的 道路 分 割 任务 的 分 叫 
化 。 可 以 直观 地 发 现 采 用 深度 残 差 
著 提 升 部 分 。 


网 


图 5 对 采用 不 同 网 
1 评估 结果 进 
络 进行 道路 分 割 


m Hi (fps) 
耗 时 (msec) 


m MaxF1(%) 


95.13 96.05 95.88 


m AP(%) 


15.11 
6.59 71 
0+ 


ResNet_50 ' ResNet 101 "ResNet 152 


图 5 


不 同 网 络 层次 的 道路 分 割 柱 


状 图 


RS 不 同 网 络 层 数 进行 车 辆 检 疯 


任 


务 的 对 比 


深度 残 差 


网 


i 
= 
云 


提 


FI 值 以 及 
上 有 小 幅 的 提升 ， 
LE 随 的 网 络 模 
络 结构 以 
行 了 可 视 
任务 的 显 


中 等 /% 困难 /% 


容易 /% 


帧 率 /fps 


耗 时 /ms 


VGG 94.2 84.5 69.7 


ResNet 50 94.8 86.5 72.4 


ResNet_101 96.9 89.3 75.1 


ResNet_152 97.1 89.4 TES 


16.530 


15.275 


60.496 
65.465 
9.76 102.49 


8.01 125.05 


针对 车 辆 检测 任 


导数 进行 图 像 特征 提取 但 


E 务 用 以 完成 车 


对 以 
深度 残 差 网 络 结构 进行 训练 和 评估 ， 对 比 


行 速度 的 同时 ， 本 文采 用 的 深度 残 差 网 络 结构 在 车 辆 识别 准 


E 务 。 如 表 5 


务 ， 本 文采 用 不 同 网 络 结构 以 及 不 同 网 络 
检测 各 
及 图 6 所 示 , 物体 检测 等 级 分 为 容易 、 中 等 以 及 
上 三 种 不 同类 型 的 物体 分 别 采用 VGG 网 络 和 不 同 层 数 的 
结果 显示 ， 在 保证 运 


LIE 


以 


困难 三 个 类 别 。 


确 
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率 方面 有 了 明显 的 提高 , 此 三 类 以 中 等 作为 最 终 评估 指标 , 152 


录用 入 <b Ree eent eos eee ee 


高 了 分 割 


层 的 深度 残 差 网 络 将 识别 准确 率 提高 了 4.9% 。 笔 者 猜测 医 
KITTI Object 数据 集 当 中 含有 多 种 类 ， 丰 富 的 数据 集 作为 预 训 
练 的 数据 ， 使 得 多 层次 、 大 规模 的 神经 网 络 网 络 模型 得 到 了 充 
分 的 训练 ， 因 而 识别 的 准确 率 得 到 了 大 幅 的 提升 。 


140 - a 容易 (%) 
中 等 (%) 
120 
目 困 难 (%) 
100" 7] m H (fps) 
目 耗 时 (msec) 


60 + 
40 
20 
0 十 L 


ResNet_50 ResNet 101ResNet_152 


图 6 不 同 网 络 层次 的 车 辆 检测 柱状 图 
4.3 不 同道 路 分 割 以 及 车 辆 检测 方法 的 对 比 
实验 中 分 别 将 同样 用 于 进行 处 理 道 路 分 割 任务 的 ENet 、 
FCN、 SPL 以 及 本 文 算法 进行 比较 ， 其 中 ENet 网 络 采 用 编码 
加 /解码 的 网 络 ， 将 分 类 反 向 传播 给 原始 图 像 进行 语义 分 割 。 
FON 网 络 是 首 个 实现 端 到 端 语义 分 割 的 典型 网 络 结构 。 此 外 ， 
SPL 则 引入 了 无 监督 的 方式 进行 标签 生成 最 终 完 成 道路 分 割 任 
务 。 表 6 对 于 不 同方 法 在 道路 分 割 任务 上 的 准确 率 进 行 了 比较 。 
表 6 不 同道 路 分 割 方法 的 准确 率 对 比 


MaxF1/% AP/% 
ENet 93.13 93.01 
FCN 90.89 82.32 
SPL 93.69 92.96 
本 文 方法 96.05 92.15 
100 E MaxF1(%) 
96.05 AP(%) 
93.69 
95 + 93.13 93.01 92.96 92.15 
90.89 
90 4 
85 + 
80 4 
75 
ENet L | e N Ww | 


图 7 不 同 分 割 算 法 的 准确 率 柱状 图 

AR 6 和 图 7 中 可 以 看 出 ， 使 用 了 深度 残 差 编码 一 解码 的 
网 络 结构 进行 道路 分 割 的 方法 比 其 他 未 使 用 没有 使 用 深度 残 差 
编码 一 解码 的 网 络 结构 的 方法 (ENet、FCN、SPL) 的 分 割 准 


的 准确 率 。 另 外 ， 本 文 仅 在 KITT 道路 数据 集 进行 训 


练 评 佑 ， 并 未 借助 其 他 更 大 规模 的 数据 集 ， 这 与 方法 SPL 借助 
KITTI Object 数据 集 进行 训练 模型 相 比 较 ， 节 省 了 大 量 的 训练 


时 间 以 及 


数据 集资 源 。 
表 7 不 同 车 辆 检测 方法 的 速度 对 比 


容易 /% ”中 等 /% ”困难 /% ” 耗 时 /ms 环境 


UI 
TWSNet 
VCTNet 

本 文 方法 


89.6 87.3 71.2 400 GPUQ@2.5 Ghz 
90.0 86.3 71.4 480 GPU@3.5 Ghz 
89.4 86.0 75.9 180 GPU@3.5 Ghz 


94.8 86.5 72.3 65 GPU@2.5 Ghz 


针对 
提出 的 不 
的 算法 在 
检测 结果 


车 辆 检测 任务 , 将 本 文 方法 与 KITTI Object 排行 榜 中 
同 的 优秀 车 辆 检测 方法 进行 比较 。 进 行 检测 任务 比较 
硬件 运行 环境 等 条 件 下 与 本 文 方法 基本 一 致 ， 因 此 将 
进行 比较 。 表 7 对 于 不 同 的 检测 算法 ， 在 准确 率 相 近 


FDIS AZ. 


的 前 提 下 


进行 运行 速度 的 比较 。 


600 


500 


目 容 易 (%) 
中 等 (%) 


400 +4 


200 +4 


m 困难 (%) 
m £} (msec) 


300 + 


100 


0 4 


T ili 86.5 55 


TWSNet VCTNet Im 


从 表 


图 8 不 同 检测 算法 的 性 能 比较 柱状 图 
7 和 对 应 的 图 8 中 可 以 看 出 ， 将 本 文 方法 与 硬件 运行 


环境 一 致 
测 准确 率 
升 ; 在 保 


甚至 硬件 环境 更 优越 的 检测 算法 进行 比较 ， 在 保证 检 
无 较 大 差距 的 前 提 下 ， 本 文 算法 在 速度 上 有 明显 的 提 
证 较 高 准确 率 的 前 提 下 ， 运 行 时 间 达 到 了 65 ms. | 


于 本 文 是 在 深度 残 差 网 络 载 入 预 训练 模型 的 前 提 下 ， 仅 在 


KITTI 24 


高 运行 速 
图 9 
中 ， 第 一 


结果 ; 第 二 


路 的 实际 


居 上 进行 参数 调 优 操作 ， 所 以 这 在 缩短 运行 时 间 、 提 
度 方面 有 很 大 的 提升 。 
以 直观 的 方式 ， 将 道路 分 割 任 务 结果 进行 可 视 化 。 其 
行 中 的 阴影 区 域 标 记 出 了 算法 输出 的 道路 分 割 区 域 的 
行为 原 图 中 的 道路 的 实际 有 效 面 积 ， 道 路 区 域 为 道 
区 域 ， 第 三 行为 KITTI Road 数据 集 当 中 的 实际 标签 


所 显示 的 道路 的 标注 区 域 .图 10 展示 了 道路 分 类 以 及 车 辆 检测 


道 线 道路 
的 类 别 ， 
框 出 的 区 


的 结果 。 其 中 第 一 行为 KITTI Road 数据 集中 


a 


单车 道 线 以 及 多 车 
的 原始 图 像 ， 第 二 行 中 图 像 左 上 角 展 示 图 像 所 属 道路 
车 辆 采用 边界 框 标 出 本 算法 所 检测 到 的 车 辆 位 置 ， 被 
域 为 检测 到 的 车 辆 的 位 置 。 结 果 表明 ， 本 文 方法 可 以 


确 率 有 明显 的 提升 ， 本 文 方法 达到 了 最 好 的 分 割 准 确 率 。 相 较 
于 传统 的 语义 分 割 方法 FCN, 本 文 方法 的 准确 率 提高 了 5.16%。 
因为 在 处 理 分 割 任务 的 同时 ， 采 用 编 /解码 的 结构 ， 并 采用 深度 
残 差 网 络 进行 特征 提取 ， 将 图 像 的 高 维 抽象 特征 与 低 维 的 边界 
纹理 特征 进行 深度 融合 ， 提 高 了 网 络 模型 的 泛 化 能 力 ， 进 而 提 


有 效 地 完 
针对 道 
BR EU 


评估 视觉 算法 在 城区 场景 语义 理解 方面 的 能 力 。 同 时 ， 它 提供 


成 道路 分 割 、 车 辆 检测 以 及 道路 分 类 任务 。 
首 路 分 割 这 一 特定 任务 , 目前 由 奔驰 主推 的 Cityscapes 
同样 提供 了 自动 驾驶 环境 下 的 图 像 分 割 数据 集 ， 用 于 


了 50 个 城市 不 同 场景 、 不 同 季节 的 5 000 张 精 细 标 注 的 图 像 ， 
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目前 自动 驾驶 环境 


raat 


下 标注 十 分 完备 的 数据 集 。 


图 9 KITTI Road 道路 分 割 结 


R 


10 


Y 
Pia 


图 11 Cityscapes 数据 集 


Ay. iT 


基于 以 上 实验 的 
差 网 络 下 进行 训练 测 
在 该 数据 集 下 


的 测试 结 


道路 分 类 和 和 车辆 检测 结 


道路 分 割 测试 结 
基础 下 ， 本 文 同时 采用 该 数据 集 在 深度 残 


试 ， 提 取道 路 特征 


并 完成 道路 分 割 


果 如 图 


11 所 示 。 


图 11 可 以 直 


任务 。 
观 地 观 


察 到 深度 残 差 网 络 在 不 同道 路 场景 数据 集 下 的 道路 分 割 任务 的 


实际 效果 。 
种 不 同 的 物体 ， 在 本 


实验 中 针对 


行道 路 特征 的 学 习 ， 


lf 


als a + 


AR 


H 


任务 ， 


作 大 


fE) 


明显 观察 到 在 使 用 不 
有 很 好 的 泛 化 能 力 与 


结果 图 像 ， 


EHME, FE 


移 到 自动 驾驶 场景 下 
5 ”结束 语 


本 文 针 对 


的 其 


自动 驾驶 领域 中 的 道路 场景 


理解 问题 ， 提 出 


行 处 理 
中 的 原始 数据 图 像 ， 第 二 


本 文 方法 


区 别 于 KITTI 数据 集 ，Cityscapes 数据 集 标注 了 30 
特定 的 道路 分 
将 其 他 多 余 的 特征 
中 第 一 行为 Cityscapes 数据 集 当 
i 本文 当中 的 残 差 网 络 进行 道路 分 割 的 分 割 
司 的 数据 集 进行 测试 当中 ， 
里 可 以 将 本 文 方法 很 好 地 迁 


仅 进 
。 其 
行为 
可 以 
也 具 


他 标注 完备 的 数据 集 下 进行 测试 。 


T 
场 
图 
路 


务 ; 


深度 残 差 学 习 的 编码 器 一 解码 器 网 络 结构 用 于 解决 相关 道路 
景 理解 问题 的 方法 。 该 方法 将 深度 残 差 网 络 作为 编码 器 进行 
像 高 维特 征 提取 任务 ， 并 将 提取 的 高 维特 征 共享 给 并 行 的 道 
分 割 、 车 辆 检测 以 及 道路 分 类 问题 中 ， 以 提高 运行 速度 和 任 
EMK. Æ KITTI 数据 集 上 的 实验 表明 ， 该 算法 能 够 在 保证 


AS 


道 


路 分 割 精度 的 情况 下 有 效 提高 道路 分 割 的 运行 速度 ， 并 且 在 


法 


术 


定 程度 上 提高 了 车 辆 检测 以 及 道路 分 类 任务 的 准确 率 。 该 算 
改善 了 汽车 对 道路 环境 的 感知 能 力 ， 进 而 保证 了 自动 驾驶 技 
的 稳定 性 、 准 确 性 和 时 效 性 ， 在 自动 驾驶 领域 具有 广泛 的 应 


用 


场景 。 
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